Search CORE

51 research outputs found

Arquitecturas y métodos en sistemas de reconocimiento automático de habla de gran vocabulario

Author: Macías Guarasa Javier
Publication venue: E.T.S.I. Telecomunicación (UPM)
Publication date: 01/01/2001
Field of study

La tesis que se presenta en este documento, se enmarca en el área del Reconocimiento Automático de Habla y específicamente en el diseño de sistemas de reconocimiento de gran vocabulario. En todos los casos, la tecnología de base en lo que se refiere al modelado, la aportan los modelos ocultos de Markov que, hoy por hoy, representan el paradigma de modelado dominante. En concreto, se utilizarán técnicas de modelado discreto y semicontinuo, dependiente e independiente del contexto. En primer lugar, y a partir de una clasificación de alternativas arquitecturales en el diseño de sistemas de reconocimiento se hace un estudio teórico de la formulación del comportamiento de arquitecturas multi-módulo, tanto en coste computacional como en tasa de reconocimiento, definiendo una metodología de diseño para determinar la adecuación de módulos particulares de cara a su uso conjunto, que es validada con la experimentación correspondiente. Igualmente, se hace énfasis en el estudio y evaluación de algunas de las alternativas de compresión del espacio de búsqueda, estableciendo relaciones de compromiso entre coste y tasa, que es el binomio decisivo a la hora de abordar el diseño de sistemas en tiempo real. Se presentan estudios sobre distintas estrategias de organización del espacio de búsqueda orientadas a exploración y búsqueda con algoritmos de programación dinámica: árboles y grafos, deterministas y no deterministas, proponiendo soluciones prometedoras para incrementar la tasa de inclusión obtenible sobre estructuras de grafo (en las que la compresión del espacio de búsqueda produce peores resultados que con la búsqueda lineal o en árbol). Especialmente importante es el trabajo sobre estimación de listas variables de preselección, analizando métodos paramétricos y no paramétricos, centrándonos en el uso de redes neuronales como mecanismo estimador. Se ha propuesto una metodología de selección de parámetros de entrada, topologías y métodos de codificación, en base a su potencia discriminativa en una tarea simplificada. Dicha propuesta que ha sido ampliamente evaluada y comparada con el enfoque tradicional de uso de listas fijas, mostrando la consistente mejora tanto en tasa como en coste computacional conseguible con el uso de redes neuronales. Dicho estudio sobre listas variables ha sido extendido de forma natural al problema de estimación de fiabilidad de hipótesis, habiéndose aprovechando estos resultados, de nuevo, para la estimación de longitudes de listas, obteniendo también buenos resultados. En lo que respecta al repertorio de unidades de reconocimiento y a la composición de los diccionarios usados (en cuanto al uso de múltiples pronunciaciones), se aplican, evalúan y comparan métodos dirigidos por datos y basados en conocimiento. En el apartado de introducción de variantes de pronunciación se ha discutido ampliamente la problemática de contar con bases de datos representativas y haciendo énfasis en la importancia de atender y evaluar las mejoras marginales obtenidas con algunos de estos métodos. La evaluación de los resultados es planteada cuidadosamente, sobre dos tareas radicalmente distintas: habla telefónica independiente del locutor y habla aislada dependiente, ambas usando gran vocabulario (hasta 10000 palabras), lo que permite obtener conclusiones y claves de diseño para cada una de ellas, con lo que se consigue una generalización más fundamentada de su bondades o perjuicios. En este sentido se aplican análisis de validez y relevancia estadística que pongan en su justo sitio las mejoras o degradaciones observadas. En los procesos de evaluación se han propuesto nuevas métricas y mecanismos originales de comparación

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Archivo Digital UPM

SD-TEAM: Interactive Learning, Self-Evaluation and Multimodal Technologies for Multidomain Spoken Dialog Systems

Author: Córdoba Herralde Ricardo de
Lleida Eduardo
Macías Guarasa Javier
Torres Maria Ines
Publication venue: E.T.S.I. Telecomunicación (UPM)
Publication date: 01/01/2009
Field of study

Speech technology currently supports the development of dialogue systems that function in limited domains for which they were trained and in conditions for which they were designed, that is, speciﬁc acoustic conditions, speakers etc. The international scientiﬁc community has made signiﬁcant efforts in exploring methods for adaptation to different acoustic contexts, tasks and types of user. However, further work is needed to produce multimodal spoken dialogue systems capable of exploiting interactivity to learn online in order to improve their performance. The goal is to produce ﬂexible and dynamic multimodal, interactive systems based on spoken communication, capable of detecting automatically their operating conditions and especially of learning from user interactions and experience through evaluating their own performance. Such ?living? systems will evolve continuously and without supervision until user satisfaction is achieved. Special attention will be paid to those groups of users for which adaptation and personalisation is essential: amongst others, people with disabilities which lead to communication difﬁculties (hearing loss, dysﬂuent speech, ...), mobility problems and non-native users. In this context, the SD-TEAM Project aims to advance the development of technologies for interactive learning and evaluation. In addition, it will develop ﬂexible distributed architectures that allow synergistic interaction between processing modules from a variety of dialogue systems designed for distinct tasks, user groups, acoustic conditions, etc. These technologies will be demonstrated via multimodal dialogue systems to access to services from home and to access to unstructured information, based on the multi-domain systems developed in the previous project TIN2005-08660-C04

Archivo Digital UPM

HIFI-AV: An Audio-visual Corpus for Spoken Language Human-Machine Dialogue Research in Spanish

Author: Barra Chicote Roberto
Fernández Martínez Fernando
Ferreiros López Javier
Lucas Cuesta Juan Manuel
Macías Guarasa Javier
Publication venue: E.T.S.I. Telecomunicación (UPM)
Publication date: 01/01/2010
Field of study

In this paper, we describe a new multi-purpose audio-visual database on the context of speech interfaces for controlling household electronic devices. The database comprises speech and video recordings of 19 speakers interacting with a HIFI audio box by means of a spoken dialogue system. Dialogue management is based on Bayesian Networks and the system is provided with contextual information handling strategies. Each speaker was requested to fulﬁl different sets of speciﬁc goals following predeﬁned scenarios, according to both different complexity levels and degrees of freedom or initiative allowed to the user. Due to a careful design and its size, the recorded database allows comprehensive studies on speech recognition, speech understanding, dialogue modeling and management, microphone array based speech processing, and both speech and video-based acoustic source localisation. The database has been labelled for quality and efﬁciency studies on dialogue performance. The whole database has been validated through both objective and subjective tests

Archivo Digital UPM

A Contextual GMM-HMM Smart Fiber Optic Surveillance System for Pipeline Integrity Threat Detection

Author: Fidalgo Martins Hugo
González Herráez Miguel
Macías Guarasa Javier
Martín López Sonia
Tejedor Noguerales Javier
Publication venue: 'Institute of Electrical and Electronics Engineers (IEEE)'
Publication date: 01/01/2019
Field of study

This paper presents a novel pipeline integrity surveillance system aimed to the detection and classification of threats in the vicinity of a long gas pipeline. The sensing system is based on phase-sensitive optical time domain reflectometry (

\phi

-OTDR) technology for signal acquisition and pattern recognition strategies for threat identification. The proposal incorporates contextual information at the feature level in a Gaussian Mixture Model-Hidden Markov Model (GMM-HMM)-based pattern classification system and applies a system combination strategy for acoustic trace decision. System combination relies on majority voting of the decisions given by the individual contextual information sources and the number of states used for HMM modelling. The system runs in two different modes: (1) machine+activity identification, which recognizes the activity being carried out by a certain machine, and (2) threat detection, aimed to detect threats no matter what the real activity being conducted is. In comparison with the previous systems based on the same rigorous experimental setup, the results show that the system combination from the contextual feature information and the GMM-HMM approach improves the results for both machine+activity identification (7.6% of relative improvement with respect to the best published result in the literature on this task) and threat detection (26.6% of relative improvement in the false alarm rate with 2.1% relative reduction in the threat detection rate).European CommissionMinisterio de Economía y CompetitividadComunidad de Madri

e_Buah - Biblioteca Digital de la Universidad de Alcalá

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Scipedia

Proyecto MENTOR en la ETSI de Telecomunicación: Cinco Años de Experiencia.

Author: Almendra Sánchez Alberto
Jiménez Leube Francisco Javier
Macías Guarasa Javier
Melcon de Giles Maria Jose
Sánchez Ávila Carmen
Publication venue: E.T.S.I. Telecomunicación (UPM)
Publication date: 01/01/2008
Field of study

Las ideas preliminares acerca de la necesidad de desarrollar los mecanismos de asistencia al alumno en al ETSI de Telecomunicación de la UPM surgieron a raíz del informe final de Evaluación de la Calidad de la Titulación de Ingeniero de Telecomunicación de la UPM. en el que se identificaba como punto débil la existencia de" alumnos insuficientemente informados" y como propuesta de mejora "estudiar nuevas formas de asistencia al alumno y potenciar las tutorías". Tras ese estudio, se creó un grupo de trabajo que abordó varias tareas en esa línea, y cuyos trabajos culminaron en el curso 2001-2002 con la propuesta de una iniciativa para planificar y desarrollar un plan de memorias por compañeros en la Escueta, que fue finalmente implantado en el curso2002-2003, extendiéndose en los años sucesivos a otras Escuelas de nuestra Universidad

Archivo Digital UPM

Evaluation of a Spoken Dialogue System for controlling a Hifi audio system

Author: Barra Chicote Roberto
Blázquez Juan
Fernández Martínez Fernando
Ferreiros López Javier
Lucas Cuesta Juan Manuel
Macías Guarasa Javier
Publication venue: E.T.S.I. Telecomunicación (UPM)
Publication date: 01/01/2008
Field of study

In this paper a Bayesian Networks, BNs, approach to dialogue modelling [1] is evaluated in terms of a battery of both subjective and objective metrics. A significant effort in improving the contextual information handling capabilities of the system has been done. Consequently, besides typical dialogue measurement rates for usability like task or dialogue completion rates, dialogue time, etc. we have included a new figure measuring the contextuality of the dialogue as the number of turns where contextual information is helpful for dialogue resolution. The evaluation is developed through a set of predefined scenarios according to different initiative styles and focusing on the impact of the user’s level of experience

Archivo Digital UPM

Generación de una voz sintética en Castellano basada en HSMM para la Evaluación Albayzín 2008: conversión texto a voz

Author: Barra Chicote Roberto
King Simon
Lutfi Syaheerah L.
Macías Guarasa Javier
Montero Martínez Juan Manuel
Yamagishi J.
Publication venue: E.T.S.I. Telecomunicación (UPM)
Publication date: 01/01/2008
Field of study

Este artículo describe el proceso de generación de una voz en castellano utilizando el corpus UPC ESMA de UPC proporcionado por la Evaluación Albayzín 2008: Conversión Texto a Voz. Se ha implementado una voz basada en selección de unidades mediante el paquete Multisyn de Festival y otra basada en Hidden Semi-Markov Models (HSMM) mediante HTS. Tras una breve evaluación de la calidad de ambas voces, se detallan las características principales de la voz basada en HSMM, sistema final presentado a la evaluación

Archivo Digital UPM

Utilización de prácticas con gráficos 3D animados en la enseñanza de la programación orientada a objetos

Author: Gutiérrez de Mesa José Antonio
Gutiérrez José M.
Hilera José R.
Macías Guarasa Javier
Publication venue: Universidad de Extremadura. Departamento de Informática
Publication date: 01/01/2002
Field of study

Se presenta una experiencia real basada en la utilización de prácticas con gráficos animados en tres dimensiones en la enseñanza de la programación orientada a objetos, indicando los resultados obtenidos tanto en relación al aprendizaje como en la motivación de los alumnos

Repositorio Institucional de la Universidad de Alicante

SD-TEAM: interactive learning, self-evaluation and multimodal technologies for multidomain spoken dialogue systems

Author: Córdoba Herralde Ricardo de
Justo Blanco Raquel
Lleida Solano Eduardo
Macías Guarasa Javier
Sanchis Arnal Emilio
Torres Barañano María Inés
Publication venue: Sociedad Española para el Procesamiento del Lenguaje Natural
Publication date: 01/01/2010
Field of study

Este proyecto está financiado por el Ministerio de Ciencia e Innovación del Gobierno de España, mediante el programa TIN2008-06856-C05-01

Repositorio Institucional de la Universidad de Alicante

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Propuesta metodológica para la mejora de la calidad y la excelencia de la educación superior en informática mediante el fomento del trabajo en equipo

Author: Gutiérrez de Mesa José Antonio
Gutiérrez José M.
Hilera José R.
Macías Guarasa Javier
Publication venue: Universidad de Extremadura. Departamento de Informática
Publication date: 01/01/2002
Field of study

Se presentan las ideas exploradas y aplicadas y los resultados obtenidos durante el curso 2001/02 con la intención de fomentar el trabajo en equipo entre los estudiantes de primero de Ingeniería en Informática de la Universidad de Alcalá (UA). El campo de trabajo elegido ha sido el de las asignaturas de Laboratorio de Programación, dado su carácter eminentemente práctico que permite el trabajo en equipo como forma natural de desarrollo

Repositorio Institucional de la Universidad de Alicante